数据倾斜情况下基于MapReduce模型的连接算法研究

doi:10.3969/j.issn.1006-2475.2013.05.006

计算机与现代化 ›› 2013, Vol. 1 ›› Issue (5): 22-27.doi: 10.3969/j.issn.1006-2475.2013.05.006

数据倾斜情况下基于MapReduce模型的连接算法研究

金健，陈群，赵保学

西北工业大学计算机学院,陕西西安710072

收稿日期:2013-01-11 修回日期:1900-01-01 出版日期:2013-05-28 发布日期:2013-05-28

Research on Data Skew Join Algorithm Based on MapReduce Model

JIN Jian, CHEN Qun, ZHAO Bao-xue

School of Computer Science, Northwestern Polytechnical University, Xi’an 710072, China

Received:2013-01-11 Revised:1900-01-01 Online:2013-05-28 Published:2013-05-28

摘要/Abstract

摘要： 基于MapReduce的连接算法的研究是海量数据研究领域的一个重要内容，但都集中在数据分布均匀的情况下进行算法优化，而在实际应用中数据分布往往是不均匀的。本文基于此背景，提出一种适合在数据严重倾斜时使用基于MapReduce编程模型的连接算法Skew Control Join，算法通过采样获取数据集的整体分布，通过全局分区将数据集进行分割，使倾斜数据的处理平均分配到所有的Reduce任务上。实验表明在数据倾斜时，本文提出的算法具有良好的性能，达到研究目标。

关键词: 连接算法, 数据倾斜, 全局分区, 采样

Abstract: The study of join algorithm based on MapReduce is a hot topic in massive data research area. However, most current optimization work is based on the assumption that the data are evenly distributed. In practical applications, the data to be processed are often skew in distribution. This paper proposes a MapReduce join algorithm called Skew Control Join, which is adaptive for serious skew data. The algorithm gets the overall data distribution by sampling, then partitions the data by total partitioner to distribute the data evenly to all Reduce tasks. Experiment results show that the algorithm is of good performance when the processed data are skew.

Key words: join algorithm, data skew, total partition, sample

中图分类号:

TP301.6

金健;陈群;赵保学. 数据倾斜情况下基于MapReduce模型的连接算法研究[J]. 计算机与现代化, 2013, 1(5): 22-27.

JIN Jian;CHEN Qun;ZHAO Bao-xue. Research on Data Skew Join Algorithm Based on MapReduce Model[J]. Computer and Modernization, 2013, 1(5): 22-27.

[1]	周传华1, 2, 任太娇1, 罗岚1, 周昊1. 基于联合熵的非平衡数据边界混合重采样[J]. 计算机与现代化, 2024, 0(09): 95-100.
[2]	朱宏启, 王诚. 基于电商用户行为的隐式反馈推荐应用研究[J]. 计算机与现代化, 2023, 0(11): 44-50.
[3]	刘付谦, 秦华妮, 赖惠慧. 基于SMOTE和贝叶斯优化的Adj-LightGBM人岗匹配算法[J]. 计算机与现代化, 2023, 0(03): 90-95.
[4]	彭穗, 许亮, 张志强, 娄源媛, 余浩, 秦晓辉. 基于混合藤Copula和ILHS的概率电压稳定评估算法[J]. 计算机与现代化, 2022, 0(12): 6-12.
[5]	孟晓龙, . DNeStCount:数据相关的拆分注意力机制的编码器-解码器结构的人群计数方法[J]. 计算机与现代化, 2022, 0(09): 68-77.
[6]	龚云翔, 袁仕芳, 刘付谦. 基于集成学习与不平衡数据的返贫预测[J]. 计算机与现代化, 2022, 0(04): 12-16.
[7]	唐洁, 文元美. 基于3CNN-BiGRU的睡眠自动分期研究[J]. 计算机与现代化, 2022, 0(02): 120-126.
[8]	周传华, 朱俊杰, 徐文倩, 邓佳佳. 基于聚类欠采样的集成分类算法[J]. 计算机与现代化, 2021, 0(11): 72-76.
[9]	闫岭岭, 江峰, 杜军威, 杨爱光. 基于混合采样与Random_Stacking的软件缺陷预测[J]. 计算机与现代化, 2021, 0(08): 70-76.
[10]	章恒, 鞠时光. 基于概念漂移检测的网络数据流分类[J]. 计算机与现代化, 2021, 0(07): 107-114.
[11]	董燕辉, 肖军弼, 张红霞, 杨勇进, 计志滨. 面向不平衡数据集的应用系统识别方法[J]. 计算机与现代化, 2021, 0(05): 93-97.
[12]	赵倩文. 基于在线社交网络的JPS跳跃并行顶点采样方法 [J]. 计算机与现代化, 2020, 0(07): 55-60.
[13]	王海, 江峰, 杜军威, 赵军. 过采样与集成学习方法在软件缺陷预测中的对比研究[J]. 计算机与现代化, 2020, 0(06): 83-.
[14]	史明华,吴广潮. 基于聚类混合采样的不平衡数据分类[J]. 计算机与现代化, 2020, 0(05): 34-.
[15]	郭冰楠，吴广潮. 改进的随机平衡采样Bagging算法的网络贷款研究[J]. 计算机与现代化, 2019, 0(04): 11-.

数据倾斜情况下基于MapReduce模型的连接算法研究

Research on Data Skew Join Algorithm Based on MapReduce Model

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics

本文评价